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(54) Title: HANDLING ERRORS IN AN ERROR-TOLERANT DISTRIBUTED COMPUTER SYSTEM 



(54) Bezeichnung: BEHANDELN VON FEHLERN IN EINEM FEHLERTOLERANTEN VERTEILTEN COMPUTERSYSTEM 

(57) Abstract: The invention relates to a method for handling errors in an error-tolerant distributed computer system and such 
a system, with a number of nodal computers (K1...K4), connected by means of communication channels (cll...c42) with access 
to me channels by means of a cyclical time slice method. Messages emanating from nodal computers (K1...K4) are checked by 
independently formed guardians (GUA), which either convert a message suffering from an SOS (Slightly Off Specification) error 
into a correct message or convert the same into a message which is clearly recognisable as incorrect by all nodal computers. 

(57) Zusammenfassung: Ein Verfahren zum Behandeln von Fehlern in einem Fehlertoleranten verteilten Computersystems, so- 
wie ein solches System, mit einer Mehrzahl von Knotenrechnern (K1...K4), die uber Kommunikationskanale (cl l...c42) verbunden 
sind und der Zugriff auf die Kanale nach einem zyklischen Zeitscheibenverfahren erfolgt. Von Knotenrechnern (K1...K4) ausge- 
hende Nachrichten werden durch unabhangig ausgebildete Guardians (GUA) uberpruft, welche eine mit einem SOS ("slightly off 
speicification")-Fehler behaftete Nachricht entweder in eine korrekte Nachricht umformen oder in eine Nachricht, die von alien Kno- 
tenrechnern als eindeutig inkorrekt erkennbar ist. 
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Behandeln von Fehlern in einem fehlertoleranten verteilten Computersystem 

Die Erf inching bezieht sich auf ein Verfahren zum Behandeln von Fehlern in einem fehlerto- 
leranten verteilten Computersystem mit einer Mehrzahl von Knotenrechnern, die iiber 
Kommunikationskanale verbunden sind, und jeder Knotenrechner iiber eine autonome 
Kommunikationskontrolleinheit verfugt, wobei der Zugiiff auf die Kommunikationskanale 
nach einem zyklischen Zeitscheibenverfahren erfolgt und die Korrektheit von Knotenrech- 
nern ausgehender Nachrichten durch Guardians iiberpruft wird. 

Ebenso bezieht sich die Erfindung auf ein fehlertolerantes verteiltes Computersystem mit 
einer Mehrzahl von Knotenrechnern, die iiber zumindest eine Verteilereinheit und Kommu- 
nikationskanale miteinander verbunden sind, jeder Knotenrechner iiber eine autonome 
Kommunikationskontrolleinheit verfiigt, der Zugriff auf die Kommunikationskanale nach 
einem zyklischen Zeitscheibenverfahren erfolgt und zur Uberpriifung der von Knotenrech- 
nern ausgehenden Nachrichten Guardians vorgesehen sind.. 

Sicherheitskritische technische Anwendungen, d.s. Anwendungen wo ein Fehler zu einer 
Katastrophe fiihren kann, werden zunehmend von verteilten fehlertoleranten Echtzeitcom- 
putersystemen gefiihrt 

In einem verteilten fehlertoleranten Editzeitcomputersystem, bestehend aus einer Anzahl 
von Knotenrechnern und einem Echtzeitkommunikationssystem, soli jeder Einzelausfall 
eines Knotenrechners toleriert werden. Im Kern einer solchen Computer architektur befindet 
sich ein fehlertolerantes Echtzeitkommunikationssystem zum vorhersehbar schnellen und 
sicheren Austausch von Nachrichten. 

Ein Kommunikationsprotokoll, das diese Anforderungen erfiillt, ist in der US 5,694,542 
entsprechenden EP 0 658 257 beschrieben. Das Protokoll ist xmter dem Namen "Time- 
Triggered Protokoll/C (TTP/C)" bekannt geworden und auch in Kopetz, H. (1997) Real-Time 
Systems, Design Principles for Distributed Embedded Applications; ISBN: 0-7923-9894-7, Boston, 
Kluwer Academic Publishers geofenbart. Es basiert auf dem bekannten zyklischen Zeitschei- 
benverfahren (TDMA - time-division multiple access) mit a priori festgelegten Zeitscheiben. 
TTP/C verwendet ein Verfahren zur fehlertoleranten Uhrensynchronisation, das in der 
US 4,866,606 geoff enbart ist. 

TTP/C setzt voraus, dass das Kommunikationssystem eine logische Broadcasttopologie 
unterstiitzt und dass die Knotenrechner ein "fail-silence" Ausfallverhalten zeigen, d. h. ent- 
weder die Knotenrechner funktionieren korrekt im Wertebereich und im Zeitbereich oder sie 
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sind ruhig. Die Verhinderung von Fehlern im Zeitbereich, d. s., der sogenannten "Babbling 
Idiot" Fehler, wird in TTP/C durch eine unabhangige Fehlererkennungseinheit, dort "Bus- 
Guardian" genannt, erreicht, der liber eine unabhangige Zeitbasis verfiigt und das Zeitver- 
halten des Knotenrechners kontinuierlich iiberpruft. Urn die Fehlertoleranz zu realisieren, 
werden mehrere fail-silent Knotenrechner zu einer fehlertoleranten Einheit (fault-tolerant 
unit - FTU) zusammengefasst und das Kommunikationssystem repliziert. Solange ein Kno- 
tenrechner einer FTU und ein Replikat des Koinmunikationssystems funktionieren, werden 
die Dienste der FTU im Zeit- und Wertebereich rechtzeitig erbracht. 

Eine logische Broadcasttopologie der Kommunikation kann physikalisch entweder durch ein 
verteiltes Bussystem, ein verteiltes Ringsystem oder durch eine zentrale Verteilereinheit 
(z. B. einen Sternkoppler) mit Punkt-zu-Punkt Verbindungen zu den Knotenrechnern aufge- 
baut werden. Wenn ein verteiltes Bussystem oder ein verteiltes Ringsystem aufgebaut wird, 
so muss jeder Knotenrechner iiber seinen eigenen BusGuardian verfiigen. Wird hingegen 
eine zentrale Verteilereinheit verwendet, so konnen alle Guardians in diese Verteilereinheit 
integriert werden, die aufgrund der globalen Beobachtung des Verhaltens aller Knoten ein 
regulares Sendeverhalten im Zeitbereich effektiv erzwingen kann. Dies ist in der nachverof- 
fentlichten WO 01/13230 Al beschrieben. 

In einem verteilten Computersystem sind Fehler, die zu einem inkonsistenten Systemzu- 
stand fiihren konnen, besonders kritisch. Als Beispiel sei hier eine sogenannte "brake-by- 
wire" Applikation in einem Auto angefuhrt, bei welcher ein zentraler Bremscomputer 
Bremsnachrichten an vier Radcomputer bei den Radern sendet Wenn eine Bremsnachricht 
von zwei Radcomputern richtig empf angen wird und die beiden anderen Radcomputer die 
Nachricht nicht empfangen, so entsteht ein inkonsistenter Zustand. Wenn nun eine Brem- 
sung von zwei Radern, die auf der gleichen Seite des Fahrzeugs liegen, erfolgt, kann das 
Fahrzeug aufier Kontrolle geraten. Die hier beschriebene Fehlerart wird in der Literatur auch 
als Byzantinischer Fehler (Kopetz, p. 60, p. 133) bezeichnet Die schnelle Erkennung und 
richtige Behandlung von Byzantinischen Fehlem ist eines der schwierigen Probleme der 
Informatik. 

Eine Unterklasse der Byzantinischen Fehler wird von den "SUghtiy-Off-Specification", kurz 
SOS-Fehlern gebildet. Ein SOS-Fehler kann an der Schnittstelle zwischen Analogtechnik und 
Digitaltechnik auftreten. Auf dem vorliegenden Fachgebiet werden unter „Digitalsignalen" 
logische Signale verstanden, unter „Analogsignalen" jedoch alle physikalischen Signale. In 
diesem Sinne ist hier auch die Unterscheidung zwischen Analog- und Digitaltechnik zu 
verstehen. In der Realisierung einer Datentibertragung kann jedes logische Bit auf der Lei- 
tung durch einen Signalwert (z. B. Spannung aus einem spezifizierten Spannungstoleranzin- 
tervall) wahrend eines spezifizierten Zeitintervalls dargestellt werden. Ein korrekter Sender 
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muss seine Analogsignale innerhalb der spezifizierten Toleranzintervalle generieren, damit 
sichergestellt ist, dass alle korrekten Empfanger diese Signale auch korrekt interpretieren. 
Wenn nun ein Sender einer Nachricht ein Signal knapp (Slightly-Of f-Specification) aufierhalb 
des spezifizierten Intervalls (im Wertebereich, im Zeitbereich, oder in beiden) generiert, so 
kann der Fall eintreten, dass einige Empfanger dieses Signal richtig interpretieren, wahrend 
andere Empfanger das Signal nicht richtig interpretieren konnen. Wir bezeichnen eine solche 
Broadcastnachricht als SOS-falsch. In der Folge kann ein Byzantinischer Fehler, wie oben 
arihand eines Bremssystems beschrieben, auftreten. Ein soldier Fehler kann seine Ursache in 
einer fehlerhaften Spannungsversorgung, einem fehlerhaften Taktgeber oder einem durch 
Alterung geschwSchten Bauteil haben. Die Obertragung einer Nachricht auf zwei Kommu- 
nikationskanalen kann SOS-Fehler nicht verhindern, wenn die Fehlerursache, z. B. ein feh- 
lerhaf ter Taktgeber des Rechnerknotens, der die Bitf olge generiert, beide Kanale betrifft. 

Es ist ein Grundsatz der Sicherheitstechnik, auftretende Fehler zum friihestmoglichen Zeit- 
punkt zu erkennen, um Gegenmalinahmen ergreifen zu konnen, ehe Folgefehler weiteren 
Schaden anrichten. Diesem Grundsatz wird im zitierten TTP/C Protokoll (EP 0 658 257) 
dadurch entsprochen, dass SOS-Fehler uber den sogenannten Membershipalgorifhmus des 
TTP/C Protokolls innerhalb von maximal zwei TDMA-Runden konsistent erkannt werden. 
Da es sich bei SOS-Fehlern typischerweise um sehr selten auftretende transiente Fehler han- 
delt, werden in einer bestehenden Prototypimplementierung von TTP/C SOS-Fehler der 
auch sehr selten auftretenden Klasse der nahe-koinzidenten Mehrf achfehler zugewiesen und 
wie diese behandelt. 

Eine Aufgabe der Erfindung liegt darin, ein Tolerieren von Fehlern der SOS-Klasse in einem 
verteilten Computersystem durch geeignete Mafinahmen zu ermoglichen. 

Diese Aufgabe wird mit einem Verfahren der eingangs genannten Art gelost, bei welchen 
erfindimgsgemafi die unabhangig ausgebildeten Guardians eine mit einem SOS („slightly off 
specifications'^-Fehler behaftete Nachricht entweder in eine korrekte Nachricht umformen 
oder in eine Nachricht die von alien empfangenden Knotenrechnern als eindeutig inkorrekt 
erkennbar ist. 

Die Aufgabe wird auch mit einem fehlertoleranten verteilten Computersystem der oben 
angegebenen Art gelost, bei welchem erfindtingsgemafi die unabhangig ausgebildeten 
Guardians dazu eingerichtet sind, eine mit einem SOS („Slightly off specffications")-Fehler 
behaftete Nachricht entweder in eine korrekte Nachricht umzuformen oder in eine Nach- 
richt, die von alien empfangenden Knotenrechnern als eindeutig inkorrekt erkennbar ist. 
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Dank der Erfindung kann in einer zeitgesteuerten, verteilten, fehlertoleranten Architektur 
fur hochzuverlassige Echtzeit-Computeranwendungen auch die Fehlerklasse der „slightly 
off specification 7 ' (SOS)-Fehler toleriert werden. 

Bei einer vorteilhaften Variante ist vorgesehen, dass jeder unabhangige Guardian unter 
Stiitzung auf seine unabhangige Zeitbasis uberpruft, ob der Beginn einer von der Kommurri- 
kationskontrolleinheit eines Knotenrechners gesendeten Nachricht innerhalb des dem Guar- 
dian a priori bekannten Beginnzeitf ensters der Nachricht f allt, und der den entsprechenden 
Kommunikationskanal sofort schliefit, falls die Nachricht aufierhalb dieses Zeitfensters liegt, 
damit eine unvollstandige, von alien empf angenden Knotenrechnern als inkorrekt erkennba- 
re Nachricht entsteht. Auf diese Weise lasst sich das Auftreten von nur leicht verstummelten, 
moglicherweise von den Empfangern falschlicherweise als korrekt interpretierten Nachrich- 
ten verhindern. 

Zweckmafiig ist es weiters, wenn ein Guardian das eingehende physikalische Signal jeder 
Nachricht im Zeit- und Wertebereich unter Beriicksichtigung der relevanten Codierungsvor- 
schriften und unter Verwendung seiner lokalen Zeitbasis und seiner lokalen Stromversor- 
gung regeneriert Ein solches unabhangiges Regenerieren erhoht die geforderte Sicherheit 
des Systems wesentlich. 

Eine andere vorteilhafte Weiterbildung der Erfindung sieht vor, dass ein keine Nachrichten 
empfangender Guardian keine Nachrichten mit korrekter CRC und korrekter Lange gene- 
riert. Auch diese Mafinahme kann die Sicherheit des Systems weiter steigern. 

Eine optimale Steuerung auf Basis des Beginnzeitfensters sieht vor, dass das Beginnzeitfens- 
ter eines Guardians urn mehr als die Prazision des Systems nach dem Beginnzeitf enster eines 
Knotenrechners beginnt und das Beginnzeitenfeiister eines Guardians tun mehr als die Pra- 
zision vor dem Beginnzeitf enster eines Knotenrechners endet. 

Zusatzliche Vorteile nicht nur hinsichtlich der Sicherheit sondern auch in Bezug auf die 
Realisierungskosten des Systems ergeben sich, falls die Guardians in die zumindest eine 
Verteilereinheit integriert sind, und die Verteilereinheit iiber eine unabhangige Stromversor- 
gimg und liber eine unabhangige, f ehlertolerante verteilte Uhrensynchronisation verfiigt. 

Die Erfindxmg samt weiterer Vorteile ist im folgenden anhand von Ausfuhrtingsbeispielen 
naher erlautert, die in der Zeichnung veranschaulicht sind. In dieser zeigen 
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Fig. 1 schematisch ein verteiltes Computersystem, bestehend aus vier Knotenrechnern, die 
iiber zwei replizierte zentrale Verteilereinheiten miteinander verbunden sind, 

Fig. 2 eine Fault Containment Unit, gebildet aus einem Knotenrechner und zwei Guardi- 
ans und 

Fig. 3 die Lage der Beginnzeitfenster eines Guardians und eines Knotenrechners. 

Fig. 1 zeigt ein System von vier Knotenrechnern Kl, K2, K3, K4, wobei jeder Knotenrechner 
eine austauschbare Einheit bildet und mit je einer Punkt-zu-Punkt Verbindung oder Kom- 
munikationskanal ell ... c42 mit einer von zwei replizierten zentralen Verteilereinheiten VI 
oder V2 verbunden ist. Zwischen jedem Ausgang eines Knotenrechners und jedem Eingang 
der Verteilereinheit befindet sich ein Guardian GUA, der entweder selbstandig ausgefiihrt ist 
oder in die Verteilereinheit integriert werden kann. Die prinzipielle Furiktion eines Guardian 
oder BusGuardian ist in Kopetz, p. 173 erlautert. Um seine Funktion erfiillen zu kdnnen, 
bentitigt ein Guardian neben einem Controller audi Schalter um Kanale zu offnen bzw. zu 
sperren. Zwei unidirektionale Kommunikationskanale v21, vl2 zwischen den Verteilerein- 
heiten VI und V2 dienen der wechselseitigen Uberwachung und dem Informationsaustausch 
der zentralen Verteilereinheiten VI und V2. Wie gleichfalls aus Kopetz, z. B. p. 172 - 177, 
hervorgeht, besitzt jeder Knotenrechner Kl ... K4 einen autonomen Controller CON oder 
Kommunikationscontroller, der mit den replizierten Kommunikationskanalen, z. B. ell, cl2 
verbunden ist Angedeutete Verbindtmgen wl, w2 sind dedizierte Kommunikationskanale. 
Sie fuhren zu Wartungscomputern wl, w2, welche die Parameter der Verteilereinheiten und 
deren korrekte Funktionen iiberwachen konnen. 

Fig. 2 zeigt einen Knotenrechner Kl mit seinem Kommurukationscontroller CON und den 
Kommunikationskanalen ell, c21 zu den anderen Knotenrechnern bzw. Verteilereinheiten 
des verteilten Computersystems. Hier sind die Guardians GUA als BusGuardians fiir die 
Kommunikationskanale ell, c21 vorgesehen, doch konnen sie gemafi Fig. 1 in die beiden 
unabhangigen zentralen Verteilereinheiten VI, V2 integriert sein. Logisch gesehen bilden die 
drei Subsysteme Knotenrechner + zwei Guardians eine Einheit, die hier „Fault Containment 
Unit" FCU bezeichnet wird und so in Fig. 2 angeschrieben ist; dies wie gesagt unabhangig 
davon, ob die Guardians GUA physikalisch in die zentralen Verteilereinheiten oder in die 
Knotenrechner integriert sind. 

Nun sei auf Fig. 3 Bezug genommen, in welcher Beginnzeitfenster fur den Anfang einer 
Nachricht eingetragen sind. Man unterscheidet zwischen dem Beginnfenster Tcon mit eben 
dieser Lange Tcon eines Knotenrechners bzw. seines Controllers und dem Beginnzeitfenster 
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Tgua eines Guardians. Die Erfindung sieht vor, dass das Zeitfenster Tgua eines Guardians 
kiirzer als das Zeitfenster Tcon eines Knotenrechners ist und zwischen dem in das Fenster 
Tcon eingebetteten Zeitfenster Tgua ein Abstand t1 bzw. x2 verbleibt, der grofier als die 
Prazision P des Systems ist. Der Begriff der Prazision ist z. B. in Kopetz, Kapitel 3.1.3 preci- 
sion and Accurancy", p. 49 und 50 erlautert. 

Wir bezeichnen nun einen beliebigen Fehler eines aktiven Subsystems, z. B. des Knotenrech- 
ners Kl, als beliebig aktiv (unconstrained active). Wir bezeichnen weiters einen Fehler eines 
passiven Subsystems, z. B. eines Guardians oder einer Verbindung ell oder c22 als beliebig 
passiv (unconstrained passiv), wenn durch die Konstruktion des passiven Subsystems sicher- 
gestellt ist, dass dieses Subsystem aus sich heraus, d. h. ohne eine Eingabe von einem aktiven 
Subsystem, keine Bitf olge generieren kann, die von einem Empf anger als syntaktisch richtige 
Nachricht interpretiert werden kann. Eine Nachricht ist syntaktisch richtig, wenn eine CRC 
Uberpriifung keinen Fehler anzeigt, sie die erwartete richtige Lange hat, den Codierungsvor- 
schriften entspricht und innerhalb des erwarteten Zeitintervalls eintrif ft. 

Wenn ein passives Subsystem nicht tiber das Wissen verfiigt, wie ein korrektes CRC zu 
generieren ist (hat keinen Zugriff auf den CRC Generierungsalgorithmus) und wie lange 
eine korrekte Nachricht sein muss, so ist die Wahrscheinlichkeit, dass auf grund von statisti- 
schen Zuf allsprozessen (Storungen) eine syntaktisch richtige Nachricht entsteht, vernachlas- 
sigbar klein. 

Eine Fault Containment Unit FCU kann einen beliebigen aktiven Fehler eines Knotenrech- 
ners Kl oder einen beliebigen passiven Fehler eines der beiden Guardians GUA in einen 
Fehler, der kein byzantinischer Fehler ist, umwandeln, wenn folgende Annahmen erfiillt 
werden: 

(i) ein korrekter Knotenrechner Kl sendet auf beiden Kanalen ell und cl2 die gleiche 
syntaktisch richtige Nachricht und 

(ii) ein korrekter Guardian GUA f ormt eine SOS-f alsche Nachricht von dem Knotenrech- 
ner Kl entweder in eine syntaktisch richtige Nachricht oder in eine Nachricht urn, die 
von alien Empfangern als eindeutig inkorrekt erkannt werden kann (nicht SOS Nach- 
richt) und 

(iii) wahrend des Sendens einer Nachricht ist maximal eines der angefuhrten Subsysteme 
fehlerhaft. 

Auf grund der Fehlerannahme (iii) kann nur ein einziges der drei angefuhrten Subsysteme 
Kl, GUA, GUA fehlerhaft sein. Ist der Knotenrechner Kl beliebig fehlerhaft, so sind die 
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beiden Guardians GUA und GUA nicht fehlerhaft und generieren entsprechend Annahme 
(ii) nicht-SOS Nachrichten. 1st einer der beiden Guardians GUA beliebig passiv fehlerhaft, so 
generiert der Knotenrechner Kl eine syntaktisch richtige Nachricht und iibertragt diese 
syntaktisch richtige Nachricht an beide Guardians GUA (Annahme i). Der korrekte Guardian 
GUA iibertragt nun die Nachricht korrekt an alle Empfanger, d. h. Knotenrechner. Auf grund 
der Empfangslogik und dem Selbstvertrauensprinzip des TTP/C-Protokolls werden in die- 
sem Fall alle richtigen Empfanger die richtige Nachricht auswahlen und den sendenden 
Knotenrechner als richtig klassifizieren. Um SOS-Fehler zu tolerieren, ist keine Anderung im 
TTP/C-Protokoll erforderlich. 

Eine beliebige Nachricht kann aus f olgenden drei Griinden SOS-f alsch sein: 

(i) die Nachricht hat einen SOS-Fehler im Wertebereich xind/oder 

(ii) die Nachricht hat einen inneren SOS Fehler im Zeitbereich (z. B., Timing Fehler inner- 
halb des Codes) und/oder 

(iii) die Ubertragung der Nachricht wird knapp aufterhalb des spezifizierten Sendeinter- 
vails (siehe Fig. 3) begonnen. 

Ein korrekter Guardian (GUA) verwandelt diese Fehlerursachen wie folgt in nicht SOS- 
Fehler: 

(i) Die Ausgabewerte der Nachricht werden durch eine Guardian GUA mit der unabhan- 
gigen Spannungsversorgung des Guardians regeneriert 

(ii) Die Codierung der Nachricht wird durch einen Guardian GUA mit der unabhSngigen 
Zeitbasis des BusGuardian regeneriert. 

(iii) Der Guardian sperrt den Kanal, sobald er erkennt, dass die Obertragung aufierhalb des 
spezifizierten Zeitintervalls Tgua begonnen hat. Damit erhalten alle Empfanger, d. h. 
Knotenrechner stark verstiimmelte Nachrichten, die als fehlerhaft erkannt werden. 

Ein Sperren des Kanals durch einen Guardian GUA unmittelbar nach dem spezifizierten 
Ende der Ubertragungszeit einer Nachricht ist im allgemeinen nicht ausreichend, um SOS- 
Fehler zu verhindern, da nicht auszuschliefien ist, dass eine durch das Sperren schwach 
verstiimmelte Nachricht Anlass fiir einen SOS-Fehler eines an sich fehlerfreien Guardians 
GUA sein kann. Wenn nun beide Guardians die Nachricht in der gleichen Weise schwach 
verstiimmeln, so kann ein SOS-Fehler auf Systemebene entstehen. 
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Abschliefiend sei f estgehalten, dass sich diese Erfindung nicht auf die beschriebene Realisie- 
rung mit vier Knotenrechnern beschraakt, sondem beliebig erweiterbar ist. Sie ist nicht ntir 
beim TTP/C Protokoll, sondern auch bei anderen zeitgesteuerten Protokollen anwendbar. 
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PATENTANSPROCHE 

1. Verfahren zum Behandeln von Fehlern in einem fehlertoleranten verteilten Computer- 
system nut einer Mehrzahl von Knotenrechnern (Kl ... K4), die uber Kommunikati- 
onskanale (ell ... c42) verbunden sind, und jeder Knotenrechner liber eine autonome 
KommunikationskontroUeinheit (CON) verfiigt, wobei der Zugriff auf die Kommuni- 
kationskanale nach einem zyklischen Zeitscheibenverfahren erfolgt und die Korrekt- 
heit von Knotenrechnern ausgehender Nachrichten durch Guardians (GUA) uberpruf t 
wirdund 

dadurch gekennzeichnet, dass 

die unabhangig ausgebildeten Guardins (GUA) eine mit einem SOS („slightly off sped- 
fications")-Fehler behaftete Nachricht entweder in eine korrekte Nachricht umformen 
oder in eine Nachricht die von alien empfangenden Knotenrechnern (Kl . . . K4) als 
eindeutig inkorrekt erkennbar ist. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jeder unabhangige Guar- 
dian (GUA) unter Stiitzung auf seine unabhangige Zeitbasis uberpriift, ob der Beginn 
einer von der Kommunikationskontrolleinheit (CON) eines Knotenrechners (Kl ... K4) 
gesendeten Nachricht innerhalb des dem Guardian (GUA) a priori bekannten Beginn- 
zeitfensters (Tgua) der Nachricht fallt, und der den entsprechenden Kommunikations- 
kanal (ell . . . c42) sofort schliefit, falls die Nachricht aufierhalb dieses Zeitfensters liegt, 
damit eine unvollstandige, von alien empfangenden Knotenrechnern als inkorrekt er- 
kennbare Nachricht entsteht. 

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass ein Guardian 
(GUA) das eingehende physikalische Signal jeder Nachricht im Zeit- und Wertebereich 
unter Beriicksichtigung der relevanten Codierungsvorschriften und unter Verwendung 
seiner lokalen Zeitbasis und seiner lokalen Stromversorgung regeneriert. 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch gekennzeichnet, dass ein keine 
Nachrichten empfangender Guardian (GUA) keine Nachrichten mit korrekter CRC 
und korrekter Lange generiert. 

5. Verfahren nach einem der Anspriiche 2 bis 4, dadurch gekennzeichnet, dass das Be- 
ginnzeitf enster (Tgua) eines Guardians (GUA) um mehr als die Prazision (P) des Sys- 
tems nach dem Beginnzeitf enster (Tcon) eines Kostenrechners (Kl ... K4) beginnt und 



BNSDOCID: <WO 0231656A2_I_> 



WO 02/31656 



-10- 



PCT/AT01/00322 



das Beginnzeitenfenster eines Guardians tun mehr als die Prazision vor dem 
Beginnzeitfenster eines Knotenrechners endet. 

6. Fehlertolerantes verteiltes Computersystem mit einer Mehrzahl von Knotenrechnern 
(Kl ... K4), die iiber zumindest eine Verteilereinheit (VI, V2) und Kommunikationska- 
nale (ell . . . c42) miteinander verbunden sind, jeder Knotenrechner iiber eine autono- 
me Kommtrnikationskontrolleinheit (CON) verfiigt, der Zugriff auf die 
Kommunikationskanale nach einem zyklischen Zeitscheibenverfahren erfolgt und zur 
Oberpriifung der von Knotenrechnern ausgehenden Nachrichten Guardians (GUA) 
vorgesehen sind, 

dadurch gekennzeichnet, dass 

die unabhangig ausgebildeten Guardians (GUA) dazu eingerichtet sind, eine mit ei- 
nem SOS („Slightly off specifications'^-Fehler behaftete Nachricht entweder in eine 
korrekte Nachricht umzuformen oder in eine Nachricht, die von alien empfangenden 
Knotenrechnern (Kl . . . K4) als eindeutig inkorrekt erkennbar ist 

7. Computersystem nach Anspruch 6, dadurch gekennzeichnet, dass ein Guardian 
(GUA) eine unabhangige Zeitbasis besitzt und dazu eingerichtet ist, zu iiberprufen, ob 
der Beginn einer von der KonrnxunikationskontroUeinheit (CON) eines Knotenrechners 
(Kl ... K4) gesendeten Nachricht innerhalb des dem Guardian (GUA) a priori bekann- 
ten Beginnzeitfensters (Tgua) der Nachricht fallt, sowie dazu, den entsprechenden 
Kommunikationskanal (ell ... c42) sofort zu schlieSen, falls die Nachricht aufierhalb 
dieses Zeitfensters liegt, damit eine unvollstandige, von alien empfangenden Knoten- 
rechnern als inkorrekt erkennbare Nachricht entsteht. 

8. Computersystem nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass ein Guardi- 
an (GUA) dazu eingerichtet ist, das eingehende physikalische Signal jeder Nachricht 
im Zeit- und Wertebereich unter Beriicksichtigung der relevanten Codierungsvor- 
schrif ten und unter Verwendung seiner lokalen Zeitbasis und seiner lokalen Stromver- 
sorgiuig zu regenerieren. 

9. Computersystem nach einem der Anspriiche 6 bis 8, dadxirch gekeimzeichnet, dass 
ein Guardian (GUA) dazu eingerichtet ist, falls er keine Nachricht empfangt, auch kei- 
ne Nachrichten mit korrekter CRC und korrekter Lange zu generieren. 

10. Computersystem nach einem der Anspriiche 6 bis 9, dadurch gekennzeichnet, dass 
der Anfang des Beginnzeitfensters (Tcon) eines Knotenrechners (Kl . . . K4) tun mehr 
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als die Prazision (P) des Systems vor dem Anfang des Beginnzeitfensters (Tgua) eines 
Guardians (GUA) liegt und das Ende des Beginnzeitfensters eines Guardians urn mehr 
als die Prazision vor dem Ende des Beginnzeitfensters eines Kostenrechners liegt. 

11. Computersystem nach einem der Anspriiche 6 bis 10, dadurch gekennzeichnet, dass 
die Guardians (GUA) in die zumindest eine Verteilereinheit (VI, V2) integriert sind, 
und die Verteilereinheit uber eine unabhangige Stromversorgung und iiber eine unab- 
hangige, f ehlertolerante verteilte Uhrensynchronisation verfugt. 
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